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摘要 : [ 目的/ 意义] 本 研究 旨 在 更 好 地 把 握 近 几 年 国际 语料库 研究 发 展 的 整体 脉络 和 研究 成 果 ， 厘 清 
该 领域 研究 的 热点 问题 ,探索 其 研究 的 前 沿 。[ 方 法 /过 程 ] 以 Web of Science 核心 数据 库 所 收录 国际 期 
刊 在 2005-2017 年 间 所 刊载 的 研究 性 论文 作为 数据 来 源 ， 借 助 BICOMB、Ucinet6 和 CiteSpace 软件 对 语 料 
库 相 关 研 究 数 据 从 文献 数量 与 年 代 分 布 、 来 源 期 刊 、 研 究 主体 、 国 家 和 地 区 分 布 、 研 究 机 构 、 被 引文 献 等 
方面 进行 计量 和 知识 图 谱 分 析 . [结果 /结论 ] 通过 分 析 发 现 ， 国 际 语料库 语言 学 的 研究 对 象 涉及 到 更 多 


语种 和 文 类 ， 并 越 来 越 呈 现 出 跨 学 科 、 多 角度 的 特点 。 持 续 关 注 的 研究 热点 包括 搭配 和 词典 编撰 ， 新 热点 
包括 专门 用 途 语 言 、 学 术 英 语 、 性 别 、 身 份 、 隐 喻 及 话语 分 析 ， 与 构 式 语法 、 认 知 语言 学 等 的 结合 是 研究 
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“语料库 ”来 自 拉 丁 语 “corpus”, 意 为 “ 汇 
总 ”“ 文 集 ”。 一 般 认为 1967 年 美国 布朗 语 料 
库 的 建立 和 相关 论文 的 发 表 标 志 着 语料库 研究 在 
现代 语言 学 意义 上 的 开端 。 但 是 20 世纪 60 年 代 
的 美国 盛行 理性 主义 ， 语 料 库 语 言 学 最 初 是 在 欧 
洲 得 到 发 展 ; 英国 成 为 语料库 研究 的 重镇 ， 并 形 
成 赞成 和 反对 语 料 标注 两 种 态度 ,前 者 代表 如 R. 
Quirk 上 1 、G. LeechPm 和 工 McEnery""，， 后 者 代表 
为 JM. Sinclair"。 伦 敦 大 学 的 R. Quirk 在 1959 
年 宣布 建立 “英语 用 法 调查 ” (The Survey of 
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English Usage ) 语料库 ;英国 新 弗 斯 学 派 代表 人 
物 J. M.Sinclair 主持 COBUILD 项 目 ， 建 成 科 林 
斯 英语 语料库 ( The Bank of English ) ; M. Baker 
将 语料库 引入 翻译 研究 中。 自 此 ， 语 料 库 广 泛 应 
用 于 词典 编撰 、 语 法 描述 、 二 语 习 得 、 文 学 研究 
及 翻译 研究 等 领域 “ 1。 美国 第 一 次 全 国 性 语 料 
库 研 讨 会 于 1999 年 举办 ， 开 始 迎头 赶 上 ; 2001 
年 第 一 届 语 料 库 语 言 学 国际 会 议 于 英国 兰 卡 斯 特 
大 学 召开 , 国际 交流 进一步 加 强 。 相 对 于 西方 ,我 
的 语料库 语言 学 研究 起 步 较 晚 ， 但 成 果 也 颇 为 
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丰富 ， 最 早 始 于 80 年 代 上 海 交 通 大 学 科技 英语 
计算 机 语料库 (JDEST ) 的 建立 ，2000 年 以 后 
相关 论文 发 表 数量 开始 成 倍增 长 。2003 年 ， 首 
个 中 国学 习 者 英语 语料库 建成 和; 2006 年 ， 王 
克 非 首次 提出 “语料库 翻译 学 ”的 概念 中，2009 
年 ， 首 届 全 国语 料 库 翻译 学 研讨 会 在 上 海 交 通 大 
学 召开 ; 2011 年 ， 首 届 中 国语 料 库 语言 学 大 会 
在 北京 外 国语 大 学 举行 。 
目前 ， 随 着 计算 机 及 网 络 技术 的 革新 ， 语 
料 库 规模 更 大 ， 美 国 杨 百 翰 大 学 的 iWeb 语料库 
达到 百 亿 词 级 ; 应 用 软件 更 优 更 新 ; 语料库 的 
应 用 领域 更 广 ; 文献 发 表 数 量 与 日 俱 增 。 为 了 
全 面 了 解 近 年 来 国际 语料库 研究 的 发 展 态势 , 把 
握 该 领域 研究 的 热点 和 前 沿 问题 ， 本 文 运用 
BICOMB 和 CiteSpace 等 工具 软件 ， 对 发 表 在 
Web of Science 上 的 2005-2017 年 间 国 际 语料库 
人 研究 文献 进行 分 析 ， 绘 制 可 视 化 知识 图 谱 ， 期 
待 为 国内 语料库 研究 提供 参考 。 
@@ 数 据 来 源 与 研究 方法 
1.1 数据 来 源 
本 人 研究 采集 的 数据 来 源 于 Web of Science 
(WOS) 核心 合集 ， 该 合集 包括 Sciences 
Citation Index (SCI ) 、Social Sciences Citation 
Index (SSCI) 和 Arts & Humanities Citation 
Index (AHCI) 数据 库 ， 包 括 2005 年 至 今 科 
学 、 社 会 科学 、 艺 术 和 人 文科 学 领域 的 世界 一 
流 学 术 性 期 刊 、 书 籍 和 会 议 录 。 以 “corpus”or 
“corpora” 为 检索 主题 词 进行 检索 ， 文 献 类 
型 为 论文 (Article ) ， 学 科 领 域 限定 为 语言 学 
(Linguistics 和 Language Linguistics ) ， 语 种 为 
英语 (Englisn ) ， 不 限定 出 版 时 间 ， 截 至 2017 
年 12 月 5 日 共 检 索 到 英文 文献 5 096 篇 ， 基 本 
涵盖 了 2005 年 以 来 国际 学 界 语料库 人 研究 的 重要 
成 果 。 文献 数据 包含 全 文本 与 引用 的 参考 文献 。 
1.2 研究 方法 
科学 计量 可 视 化 软件 的 优势 是 迅速 处 理 海 
量 数据 ， 并 以 可 视 化 方式 呈现 ， 直 观 揭示 数据 
特征 。 本 文 根 据 研究 对 象 和 问题 ， 选 取 了 3 个 
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软件 工具 ， 分 别 是 BICOMB""、Citespace 和 
Ucinet6。 通 过 BICOMB 进行 核心 期 刊 与 期 刊 
共 被 引 分 析 、 高 产 第 一 作者 分 析 和 高 被 引 作者 
分 析 ; 通过 Ucinet6 进行 作者 合作 分 析 ; 通过 
CiteSpace 对 文献 的 数量 趋势 、 期 刊 来 源 、 国 家 
和 地 区 分 布 、 研 究 机 构 、 共 被 引文 献 和 前 沿 热 
点 进行 分 析 。 基 于 3 个 软件 对 5 096 篇 文献 生成 
的 可 视 化 谱 图 及 阐释 ， 呈 现 出 国际 语料库 语言 
学 在 过 去 13 年 间 整 体 的 发 展 趋势 和 特点 ， 为 后 
续 人 研究 提供 参考 。 


@ 数 据 分 析 和 讨论 


2.1 国际 语料库 文献 数量 

文献 数量 的 变化 情况 是 衡量 该 领域 研究 进 
展 的 重要 指标 ， 经 统计 在 WOS 数据 库 共 收录 期 
刊 文献 5 096 篇 ， 年 均 文献 量 为 392 篇 ， 各 年 
代 文 献 数量 分 布 如 图 1 所 示 。 国 际 语 料 库 研究 
从 2005 年 开始 ， 该 领域 的 整体 研究 呈现 上 升 趋 
势 , 其 趋势 可 以 分 为 4 个 阶段 : 中 快速 发 展 阶段 。 
2005-2009 年 ， 这 一 阶段 是 语料库 研究 的 快速 增 
长 时 期 ， 文 献 数量 保持 稳步 递增 。@) 平 稳 发 展 
阶段 。2010-2012 年 ， 此 阶段 语料库 研究 论文 增 
长 幅度 不 大 ， 基 本 都 在 400 篇 左右 。@ 再 提速 
阶段 。2013-2015 年 ， 这 一 阶段 语料库 研究 又 呈 
现 快速 增长 趋势 ， 并 且 在 2015 年 达到 语料库 研 
究 文 献 量 的 最 大 值 622 篇 。 由 递减 阶段 。2015 
年 至 今 ， 这 一 阶段 文献 数量 逐步 递减 。 
2.2 核心 期 刊 与 期 刊 共 被 引 分 析 

通过 对 语料库 领域 相关 期 刊 的 分 布 情况 
进行 研究 ， 有 利于 了 解 该 领域 发 文 期 刊 的 空 
间 分 布 ， 并 发 现 该 领域 的 主流 期 刊 及 发 展 动 
态 ; 同时 ， 也 有 助 于 相关 学 者 了 解 该 领域 的 研 
究 进 展 及 发 文 情况 。2005-2017 年 刊 出 语料库 
的 5 096 篇 文章 分 布 在 251 个 来 源 出 版 物 ， 利 
用 BICOMB 软件 对 发 文 期 刊 进行 统计 算 选 ， 根 
据 布 拉 德 福 定律 确定 语料库 研究 文献 的 核心 期 
刊 。 将 全 部 文献 划分 为 经 典 的 3 个 区 间 ， 对 各 
个 区 间 的 文献 数 和 期 刊 数 进行 统计 得 到 区 域 分 
析 表 ， 如 表 1 所 示 : 
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图 1 Web of Science 核心 收录 的 语料库 研究 文献 发 表情 况 


表 1 原始 数据 集 区 域 分 布 表 


区 域 ”期刊 数 (种 ) 点 期 总 数 。 她 文 量 (篇 ) | eo oi 
核心 区 19 7.57 1731 33.97 91.11 
相关 区 44 17.53 1 670 32.77 37.95 2.315 
外 围 区 188 74.90 1 695 33.26 9.0 2.07 
合计 251 100 5 096 100 20.30 


按照 布 拉 德 福 定 律 ， 以 论文 为 统计 单元 , 将 
所 有 期 刊 按 相 关 论 文 数 降序 排列 并 划分 为 论文 
总 数 大 致 相等 的 3 个 区 域 ， 统 计 各 区 域 的 期 刊 
数 , 判断 是 否 符合 1 : n : ms。 此 处 ,1 :n :on 
可 以 作为 判断 分 布 是 否 符合 布 拉 德 福 定律 的 评 
估 指 标 ; 比例 越 是 接近 1 : n : 立 ， 则 布 拉 
德 福 定 律 越 显著 ， 布 布 拉 德 福 定律 的 应 用 也 越 
准确 趾 。 表 2 中 语料库 3 个 区 域 的 期 刊 数 为 
19 : 44 : 188, 即 1 : 2.315 : 4.27(2.07*), 比 
例 系 数 基 本 一 致 ， 原 始 数据 能 较 好 地 满足 布 拉 
德 福 定 律 描述 的 条 件 。 根 据 “ 核 心 区 - 相关 区 - 
外 围 区 ”的 划分 理论 ， 得 到 19 种 核心 期 刊 ， 如 
表 2 所 示 : 

期 刊 共 被 引 (Cited Journal ) 分 析 是 指 两 本 
或 多 本 期 刊 被 同一 篇 文献 引用 的 现象 ， 期 刊 共 
被 引 所 反映 的 是 各 类 期 刊 及 学 科 的 关联 性 ， 通 
过 期 刊 共 被 引 分 析 可 以 获得 某 个 研究 领域 的 知 


识 基础 分 布 。 采 用 CiteSpace 软件 对 上 述 转化 后 
的 数据 进行 期 刊 共 被 引 分 析 。 时 间 分 段 (Time 
Slicing ) 选择 2005-2017 年 ， 时 间 切 片 (Years 
per lice ) 选择 1， 节 点 类 型 (Node Types ) 选择 
被 引 期 刊 (Cited Journal ) ， 切 片上 限 (Top N 
per slice ) 选择 50， 运 用 软件 进行 可 视 化 分 析 结 
果 如 图 2 所 示 ， 图 中 节点 较 大 的 期 刊 是 在 国际 
语料库 研究 领域 具有 和 较 高 影响 力 的 期 刊 。 按 照 
中 心 度 ( 取 中 心 度 前 30 位 的 期 刊 ) 排序 统计 , 语 
料 库 研究 的 重要 被 引 期 刊 见 表 3。 

通过 CiteSpace 得 到 节点 数 124， 连 线 数 
315 的 期 刊 共 被 引 图 谱 ( 见 图 2) 。 被 引 期 刊 中 
心 度 排名 前 30 的 期 刊 见 表 3。19 种 核心 期 刊 见 
表 2。 这 些 期 刊 发 表 的 语料库 语言 学 成 果 最 多 , 影 
响 力 最 大 ， 应 该 重点 关注 。19 种 核心 期 刊 中 英 
国 出 版 5 种 ， 和 荷兰 4 种 ,德国 4 种 ,法国 、 西 
班 牙 、 美 国 、 加 拿 大 、 智 利 、 南 非 各 1 种 ; 语 
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料 库 语言 学 刊物 2 种 ,计算 机 语言 学 3 种 ， 专 
门 用 途 语言 3 种 ,词典 编撰 1 种 ,翻译 1 种 , 语 
言 学 4 种 ， 认 知 语言 学 1 种 ， 语 用 学 2 种 ， 其 
他 2 种 。 发 文 量 最 大 的 前 5 种 期 刊 分 别 是 《 语 
用 学 期 刊 》《 语 料 库 语言 学 国际 期 刊 》《 专 门 
用 途 英语 》《 语 料 库 语言 学 和 语言 学 理论 》 和 
《META: 译 者 期 刊 》， 其 中 前 两 本 期 刊 的 中 
心 度 即 影响 力也 是 最 高 的 。 从 核心 期 刊 与 期 刊 
共 被 引 情 况 可 以 看 到 ， 除 自 语 料 库 研 究 发 端 就 
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与 其 密切 相连 的 词典 编撰 、 翻 译 、 语 法 描述 等 
领域 外 ， 语 用 学 、 专 门 用 途 英 语 、 认 知 语言 学 
也 广泛 地 和 语料库 语言 学 产生 联系 ， 拓 展 了 研 
究 深 度 和 广度 。 美 国语 言 学 协会 的 刊物 《语言 I 
德国 德 古 意 特 出 版 社 出 版 《 认 知 语言 学 》 发 表 
的 论文 数量 不 是 最 多 的 ， 但 被 引 中 心 度 分 别 为 
第 一 和 第 五 ， 也 是 语料库 语言 学 的 重要 参考 文 
献 ， 并 且 证 明了 认 知 语言 学 和 语料库 的 结合 是 
一 个 新 的 研究 热点 。 


表 2 语料库 研究 核心 期 刊 


序号 来 源 期 刊 发 文 量 (篇 ) 百分比 (%) 累计 百分比 (%) 

1 ”JOURNAL OF PRAGMATICS ( 语 用 学 期 刊 ) 295 5.788 9 5.788 9 

INTERNATIONAL JOURNAL OF CORPUS LINGUISTICS ja ei Pe 
(语料库 语言 学 国际 期 刊 ) 

. ENGLISH FOR SPECIFIC PURPOSES i ed 1 
(专门 用 途 英 语 ) 

CORPUS LINGUISTICS AND LINGUISTIC THEORY a 和 生 信守 衣 
(语料库 语言 学 和 语言 学 理论 ) 

5 META (META: 译 者 期 刊 ) 84 1.648 4 14.619 3 

ENGLISH LANGUAGE & LINGUISTICS 本 下 人 
(英语 语言 和 语言 学 ) 

JOURNAL OF ENGLISH FOR ACADEMIC PURPOSES 二 eg a 
(学 术 英 语 期 刊 ) 

COMPUTATIONAL LINGUISTICS | 人 J 
(计算 语言 学 ) 

NATURAL LANGUAGE ENGINEERING 而 人 oe 
( 自然 语言 工程 ) 

10 ”REVIST4 SIGNOS ( 符号 学 期 刊 ) 78 1.530 6 22.5275 

11 TEXT & T4LK (文本 和 谈话 ) 75 1.471 7 23.999 2 

12 LEXIKOS (词典 学 ) 到 1.412 9 25.412 1 

13 ”LINGUISTICS (语言 学 ) 70 1.373 6 26.785 7 

14 LANGUAGE SCIENCES (语言 科学 ) 65 1.275 5 28.061 2 

15 JBERICA (伊比 利 亚 ) 63 1.2363 29.2975 

16 COGNITIVE LINGUISTICS ( 认 知 语言 学 ) 61 1.1970 30.494 5 

LITERARY AND LINGUISTIC COMPUTING i 人 i 
(文学 与 语言 计算 ) 

18 0 59 1.157 8 32.8100 
(LINGUA: 普通 语言 学 国际 评论 ) 

19 LANGUE FRANCAISE ( 法语) 59 1.157 8 33.967 8 
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2077 145 多 0 有 G4 分 33 和 
WoS: E:\ 杨 柳 \ 论 文 \SSCI 请 笠原 Wata 
Timespan: 2005-2017 (Slice Length=1) 
Selection Criteria: Top 50 per slice, RF=2, LBY=8, e=2.0 
Network: N=124, E=315 (Density=0.0413) 
Largest CC: 119 (95%) 
Nodes Labeled: 5.0% 
Pruning: Pathfinder 
INTRO FUNCTIONAL GRA 
COMPREHENSIVE GRAMMA 
NSSoc 全 
J ENGL AGADF PURPF J PRAGMATICS 
"ENGLSEEGIFPURP {BN “9 
: THESIS 
SYS Ap 办 EN LINGUIST J ENGL'LINGUIST 
LANG LEARN cone RAMMAR SPOK LANGIVAR CHANGE 
让 55ERUART uncusfes 
LANG COMPUT = 
g INT J CORPUS LINGUIS LANGUAGE 
CORPUS CNGUuIsT LING COG eulsD psycnor REV 
LINGUISTINAIES COMPUT LINGUIST 
CAMBRIDGE GRAMMAR EN co Niion” 
LINGUA TEAN 
NS J MEMIEANG 
JLINGUIST ”$3.— 
w = 
图 2 语料库 研究 领域 期 刊 共 被 引 图 谱 
表 3 被 引 期 刊 中 心 度 排名 前 30 的 期 刊 列表 
中 心 度 被 引 期 刊 被 引 频 次 | 中 心 度 被 引 期 刊 
0.46 LANGUAGE 1 283 0.07 INTRO FUNCTIONAL GRA 
0.39 INT J CORPUS LINGUIS 698 0.07 LANG SPEECH 
0.34 J PRAGMATICS 1 134 0.06 COMPREHENSIVE GRAMMA 
0.32 LONGMAN GRAMMAR SPOK 509 0.06 JLINGUIST 
0.31 COGN LINGUIST 485 0.06 PRAGMATICS 
0.21 APPL LINGUIST 825 0.06 COMPUTATIONAL LINGUISTICS 
0.21 COGNITION 426 0.06 INT J LEXICOGR 
0.2 JMEM LANG 417 0.06 WOMEN FIRE DANGEROUS 
0i2 TEXT 399 0.05 TESOL OUART 
0.1 LANG VAR CHANGE 365 0.05 J ENGL LINGUTIST 
0.1 CAMBRIDGE GRAMMAR EN 265 0.05 LANG COGNITIVE PROC 
0.1 COGNITIVE SCI 248 0.05 DISCOURSE PROCESS 
0.08 ENGL LANG LINGUIST 236 0.05 SPEAKING INTENTION A 
0.07 ENGL SPECIF PURP 532 0.04 CORPUS CONCORDANCE C 
0.07 LINGUIST INO 359 0.04 J PHONETICS 


2.3 人 研究 主体 分 析 

研究 主体 指 从 事 语料库 研究 的 学 者 ， 本 文 
从 高 产 第 一 作者 、 高 被 引 作者 和 作者 合作 三 方 
面 分 析 人 研究 主体 。 


md 


合作 期 刊 


被 引 频 次 
295 
174 
380 
371 
234 
171 
83 
76 
452 
254 
164 
161 

12 
194 
37 


影响 的 广度 和 深度 主要 取决 于 学 


者 所 发 表 的 研究 成 时 通过 确定 某 令 


页 域 研 究 


的 核心 作者 ， 可 以 大 致 发 现 该 领域 的 知识 地 
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图 ， 从 而 促进 这 一 领域 的 学 术 交 流 与 合作 。 通 
过 BICOMB2.0 软件 对 文献 发 文 作 者 情况 统计 
分 析 ，5 096 篇 文献 共 涉 及 第 一 作者 3 755 人 。 
根据 洛 特 卡 定 律 ， 当 发 文 量 为 1 篇 的 作者 数 占 
作者 总 数 的 比例 低 于 60% 时 ， 会 形成 核心 作者 
群 中 。 经 统计 ，2005-2017 年 发 文 量 为 1 篇 的 作 
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者 有 2 968 位 ， 约 占 作者 总 数 的 79.04%， 高 于 
洛 特 卡 定律 提出 的 60% 标准 ， 说 明 国际 语料库 
领域 未 能 够 形成 核心 作者 群 。 根 据 普 赖 斯 定律 
M=0.749 (Nmax ) 1/204， 发 文 量 大 于 等 于 3 的 
作者 为 高 产 第 一 作者 ， 共 296 人 ， 本 文 统计 发 
文 量 为 6 篇 及 以 上 的 作者 ， 有 具体 如 表 4 所 示 : 


表 4 2005-2017 年 语料库 研究 部 分 作者 统计 


序号 作者 发 文 量 (篇 ) 序号 作者 发 文 量 ( 篇 ) 

1 S. T. Gries 16 19 I. M.P Martinez 6 
2 G. M. de Schryver 12 20 S. Wulff 6 
3 K. Hyland ll 21 J. Flowerdew 6 
4 G. Parodi 10 22 R. Venegas 6 
3 D. Biber 10 23 J. Parkinson 6 
6 D.L.Liu 9 24 L. Flowerdew 6 
学 P Collins 9 25 E. Taljard 6 
8 J.L. B. Arroyo 9 26 M. Charles 6 
9 M. A. Jimenez-Crespo 8 27 P. Durrant 6 
10 D. J. Prinsloo 8 28 S.F. Chung 0 
11 N.C.Ellis 8 29 L. De Cuypere 6 
12 S. A. Crossley 8 30 K. O'Halloran 6 
13 P. Baker 7 31 L. Anderwald 6 
14 M. Hilpert gE 32 A. Adel 6 
15 A. Partington 了 33 GY. Lin 6 
16 R. Moon 7 34 J. Owens 6 
17 S.Crossley 6 35 M. Bednarek 6 
18 C. Ruhlemann 6 


表 4 显 示 ， 国 际 从 事 语 料 库 研究 的 主 
要 学 者 有 S.T.Gries、G.M. de Schryver、 K. 
Hyland、G. Parodi 和 D. Biber 等 人 ， 这 几 位 高 
产 第 一 作者 发 表 了 10 篇 以 上 的 高 质量 论文 ， 他 
们 是 国际 语料库 研究 的 领军 人 物 。 以 S. T. Gries 
等 为 代表 的 核心 作者 总 计 发 文 1 146 篇 ， 约 占 论 
文 总 数 的 22.5%， 虽 未 达到 普 赖 斯 提出 的 50% 
标准 "但 贡献 比较 可 观 。 这 一 方面 说 明 这 些 
核心 作者 是 语料库 研究 领域 的 主体 ， 为 语料库 
的 发 展 做 出 了 重要 贡献 ; 另 一 方面 还 说 明 语 料 
库 研 究 的 学 者 群 学 术 影响 力 还 不 够 大 ， 致 使 核 
心 作 者 群 尚 未 形成 。 


为 了 进一步 了 解 第 一 作者 之 间 的 合作 情 
况 ， 利 用 Citespace 对 收集 的 文献 进行 作者 合作 
分 析 ， 得 到 图 3 所 示 的 作者 合作 聚 类 图 谱 ， 
中 节点 代表 被 引 作 者 , 节点 越 大 表示 作者 的 发 文 
量 越 大 。 

图 3 中 共有 377 个 节点 ，102 条 连 线 ， 网 络 
密度 为 0.001 4。 其 中 ， 节 点 的 大 小 与 作者 发 文 
数量 有 关 ， 节 点 间 的 连 线 表 示 作 者 间 的 合作 关 
系 。 从 图 3 可 知 ， 国 际 语料库 领域 形成 了 以 S.T. 
Gries 、G. M. de Schryver 和 KK. Hyland 等 为 代表 
的 高 发 文 作者 群 ， 这 些 作者 是 国际 语料库 领域 
的 开拓 者 和 集大成 者 。 
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2005 2 
CiteSpace v.5.1.R8 SE (32-bit) 
2017 年 12 肯 15 日 下 个 06 时 58 分 55 秒 
WoS: En\ 杨 枕 \ 论 文 \SSCI 请 斜 家 dsta 
Timespan: 2005-2017 (Slice Length=1 


) 
Selection Criteria: Top 20 per slice, LRF=2, LBY=8, e=2.0 


Network: N=377, E=102 (Density=0.0014) 
Largest CC: 7 (1%) 

Nodes Labeled: 5.0% 

Pruning: Pathfinder s SS 
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图 3 语料库 


下 面 仅 对 发 文 量 前 3 位 高 产 作 者 进行 简要 
分 析 : S. T. Gries 在 语料库 研究 中 累计 发 表 英 文 
论文 16 篇 ， 居 于 首位 。 该 学 者 是 美国 加 利 福 尼 
亚 大 学 语言 学 教授 、 定 量 语料库 语言 学 家 ， 同 
时 还 是 一 个 以 认 知 为 导向 的 使 用 型 语言 学 家 , 使 
用 各 种 不 同 的 统计 方法 来 研究 语言 的 话题 ， 比 
如 使 用 语料库 来 研究 其 主体 的 同 质 性 与 比较 、 联 
结 与 分 散 测量 、N-gram 识别 与 探索 以 及 其 他 定 
量 方法 。G. M. de Schryver 发 表 英 文 论文 12 篇 , 居 
于 第 二 位 ， 是 比利时 根 特 大 学 语言 和 文化 系 非 
洲 语言 学 研究 教授 ， 主 要 研究 语料库 语言 学 、 计 
算 语 言 学 ， 他 和 D. Joffe 一 起 搭建 了 20 个 非洲 
语言 语料库 。K. Hyland 发 表 英 文 论文 11 篇 ， 居 
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究 领 域 作者 知识 图 谱 


于 第 三 位 ， 是 英国 东安 格 利 亚 大 学 教授 ， 香 港 
大 学 应 用 语言 学 首席 教授 、 应 用 英语 研究 中 心 
主任 ,国际 著名 应 用 语言 学 家 ， 学 术 写 作 与 语 
料 库 分 析 领 域 世 界 领军 学 者 。 
2.3.2 高 被 引 作者 分 析 

被 引 频 次 是 衡量 研究 成 果 价 值 的 重要 指 
标 ， 被 引 频 次 的 高 低 可 以 反映 出 作者 在 相关 领 
域 的 影响 力 ， 对 语料库 研究 期 刊 的 高 被 引 作者 
进行 分 析 ， 可 以 发 现 影响 语料库 研究 的 重要 人 
物 。 通 过 BICOMB2.0 软件 对 高 被 引 作者 进行 统 
计 分 析 发 现 ，143 400 篇 被 引文 献 共 涉 及 作者 85 
996 人 ， 以 被 引 频 次 100 为 节点 ， 得 到 高 被 引 作 
者 共 43 人 ， 具 体 情 况 如 表 5 所 示 : 
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表 5 2005-2017 年 语料库 研究 高 被 引 作者 统计 


序号 被 引 作者 被 引 次 数 中心 度 序号 被 引 作者 被 引 次 数 ”中心 度 

1 D. Biber 925 0.39 23 P. J. Hopper 201 0.01 
2 M. A. K. Halliday 582 0.16 24 M. Davies 201 0 
3 J. Sinclair 454 0.09 必 5 W. Chafe 196 0.12 
4 R. Quirk 438 0.1 26 E. A. Schegloff 188 0.03 
5 K. Hyland 418 0:23 27 B. Macwhinney 182 0.02 
6 W. Labov 373 0.13 28 K. Aijmer 173 0.05 
7 M. Scott 371 0.05 29 J.L. Bybee 165 0.02 
8 G. Leech 359 0.05 30 E. Goffman 160 0.06 
9 G. Lakoff 358 0.06 31 D. Bolinger 152 0.09 
10 R. W. Langacker 337 0.1 32 R. D. Huddleston 151 0.08 
j1 J. Bybee 330 0.2 33 T. Mcenery 144 0.08 
12 S. Hunston 289 0.11 34 M. Baker 139 0.03 
13 J. M. Swales 281 0.06 35 S.C. Levinson 133 0.01 
14 P. Brown 264 0.04 36 D. Crystal 132 0.01 
15 W. Croft 250 0.03 37 H. H. Clark 126 0.05 
16 E. C. Traugott 231 0.15 38 H. Sacks 123 0.04 
17 A. Goldberg 230 0.09 39 N.C. Ellis 117 0.12 
18 N. Chomsky 221 0.01 40 N. Fairclough 114 0.03 
29 T. Givon 217 0.03 41 M. Haspelmath 113 0.03 
20 S. T. Gries 209 0.13 42 P. Baker 105 0.01 
21 S. Granger 209 0.06 43 A. Wierzbicka 102 0.02 
2> M. Stubbs 206 0.04 


期 刊 的 质量 与 引文 作者 密切 相关 ， 利 用 
CiteSpace 对 收集 的 143 400 篇 参考 文献 进行 作 
者 共 被 引 分 析 ， 得 到 节点 数 66， 连 线 数 158 的 
作者 共 被 引 图 谱 ， 如 图 4 所 示 。 每 一 个 节点 代 
表 一 位 被 引 作者 ， 节 点 大 小 表示 该 作者 的 被 引 
频次 ， 节 点 越 大 表示 该 作者 的 被 引 频 次 越 高 。 

结合 表 5 和 图 4 发 现 ， 被 引 频 次 和 中 
心 度 排名 都 在 前 20 的 作者 中 , D. Biber、K. 
Hyland、 J. Bybee 、M. A. K. Halliday、 E.C. 
Traugott、W. Labov 和 S. T. Gries 都 排 在 前 列 , 这 
些 作者 在 国际 语料库 领域 均 做 出 了 卓越 贡献 。N. 
C. Ellis 虽 共 被 引 只 有 117 次 ,但 中 心 度 为 0.12 , 表 


示 其 研究 内 容 是 一 个 重要 的 转折 点 ， 他 将 语 料 
库 运 用 到 二 语 习 得 研究 ， 为 其 他 学 者 带 来 了 重 
要 启示 。 
2.3.3 作者 合作 分 析 

作者 合作 水 平 根据 合作 密度 值 来 判断 。 
密度 指 的 是 网 络 中 各 个 成 员 之 间 联 系 的 紧密 程 
度 ， 是 指 行动 者 之 间 实 际 联结 的 数目 与 他 们 
之 间 可 能 存在 的 最 大 联结 数目 的 比值 ， 其 高 
低 代 表 群 体 成 员 平均 互动 程度 的 强 弱 ， 密 度 
值 越 大 ， 成 员 之 间 的 联系 就 越 密切 5。 将 处 
理 好 的 矩阵 导入 Ucinet6， 依 次 点 击 Network- 
Cohension-Density , 进行 合 著 网 络 的 密度 分 析 , 可 
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以 得 出 国际 语料库 研究 主体 合作 网 络 整体 网 络 
密 Density ( matrix average ) 为 0.0131， 标 准 差 
Standard deviation 为 0.243 8， 这 表明 国际 语 料 
库 研 究 主体 合作 水 平 不 高 ， 作 者 之 间 的 联系 较 
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为 松散 。 说 明 语 料 库 领域 研究 者 团队 之 间 沟 通 
少 ， 如 果 不 同 的 研究 团队 之 间 加 强 交 流 ， 则 能 
给 不 同 的 团队 注入 新 的 活力 ， 有 利于 知识 的 分 
享 和 传播 ， 进 而 促进 该 领域 的 发 展 。 


Di 避让 
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同时 ， 人 合作 研 究 中 通常 使 用 合作 率 
( collaboration rate, CR ) 和 合作 水 平 ( collaboration 
level，CL ) 两 个 指标 度量 合作 程度 。 合 作 率 是 
旧作 者 数 大 于 等 2 的 论文 数 占 全 部 论文 数 的 比 
例 ， 合 作 水 平一 般 是 用 所 有 论文 的 平均 作者 合 
作 度 表示 '"。 由 此 可 以 得 到 语料库 研究 的 合作 
度 为 0.82， 合 作 率 为 22.36%， 合 作 度 和 合作 率 
都 很 低 。 对 独 著 者 去 重 后 分 析 独 著者 为 3 755 
人 ， 重 复 人 数 占 近 39.4%， 说 明 作 者 之 间 的 合作 
有 待 加 强 。 
2.4 文献 国家 和 地 区 分 布 
考察 文献 的 国家 和 地 区 是 指 文献 第 一 作者 
所 在 的 国家 和 地 区 。 经 统计 共有 57 个 国家 /地 
区 对 语料库 进行 了 研究 ， 发 文 量 超过 10 篇 以 上 
的 国家 /地 区 见 表 6。 由 表 6 可 知 , 美国 英国、 西 
班 牙 、 德 国 、 比 利 时 、 中 国 和 法 国 等 是 开展 语 
料 库 研究 的 主要 国家 ,说 明 这 些 国家 在 语料库 
人 研究 领域 已 经 形成 比较 专业 的 学 术 团队 。2005 
年 至 今 ， 中 国 发 表 在 Web of Science 的 论文 总 数 


国际 语料库 研究 高 被 引 作者 聚 类 图 谱 


282 篇 ， 占 总 数 的 5.53%， 但 中 心 度 为 0.01， 这 
表明 中 国 在 语料库 研究 领域 影响 力 很 低 ， 其 人 研 
究 水 平 需 提高 。 

在 Cite Space 软件 中 将 数据 抽取 阔 值 设置 
为 Top 50 perslice， 可 将 世界 各 国 发 表 的 论文 数 
量 及 时 间 以 年 轮 的 大 小 和 颜色 直观 地 展示 。 在 
得 到 的 语料库 领域 研究 的 国家 /地 区 综合 分 析 知 
识 图 谱 中 ( 见 图 5) ， 共 有 57 个 结 点 ，220 条 
连 线 ， 可 以 看 出 各 国 /地 区 间 有 较 多 合作 ， 从 而 
得 出 语料库 研究 地 区 大 致 可 以 分 为 4 个 中 心 , 分 
别 是 美国 、 英 国 、 德 国 和 西班牙 。 一 个 节点 的 
中 介 中 心 度 越 高 ， 说 明 它 在 网 络 中 最 短路 径 上 
出 现 的 越 多 ， 其 影响 力 和 重要 程度 越 大 " 
从 节点 中 心 度 来 看 , 美国 的 节点 中 心 度 最 大 , 说 
明美 国 与 其 他 语料库 研究 的 地 区 存在 某 种 程度 
上 的 合作 关系 ， 如 英国 、 德 国 和 西班牙 等 。 从 
发 文 的 突 增 性 来 看 ， 南 非 的 发 文 突 增 性 最 大 , 为 
8.4， 这 说 明 南 非 在 2005-2017 年 发 表 的 与 语 料 
库 主 题 相 关 的 论文 数量 有 和 较 大 的 突破 。 
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语料库 研究 国家 / 地 区 文献 发 表情 况 
国家 /地 区 发 文 量 jm 中 心 度 国家 /地 区 发 文 量 。” 突现 值 中 心 度 
USA 895 0.25 NEW ZEALAND 59 0.03 
ENGLAND 5395 0.24 ISRAEL 49 0 
SPAIN 73 0;12 BRAZIL 42 4.43 0.02 
GERMANY 487 0.22 IRAN 41 0 
BELGIUM 338 0.1 SOUTH KOREA 40 0 
PEOPLES R CHINA 282 0.01 CZECH REPUBLIC 37 0.02 
FRANCE 240 3 0.03 IRELAND 32 0.03 
NETHERLANDS 158 0.12 DENMARK 31 0.01 
CANADA 155 0.04 HUNGARY 30 3.99 0 
AUSTRALIA 154 0.16 RUSSIA 30 0.01 
ITALY 149 0.06 ARGENTINA 29 0 
SOUTH AFRICA 120 8.4 0.01 PORTUGAL 28 0.01 
TAIWAN 97 0 WALES 27 0.07 
CHILE 89 0 TURKEY 24 0.02 
SWEDEN 88 0.03 ESTONIA 23 6.31 0 
JAPAN 86 0 MALAYSIA 19 0.01 
SWITZERLAND 86 0.06 SINGAPORE 19 0 
SCOTLAND 83 0.02 SLOVENIA 16 0 
FINLAND 71 3.12 0.02 ROMANIA 16 2.68 0 
NORWAY 68 0 GREECE 15 0.03 
POLAND 63 0.01 CROATIA 13 3.3 0.01 
AUSTRIA 60 0.02 MEXICO 11 0.02 


2005 2006 2007 2003 
CiteSpace 1.RB SE (32-bit) 
3077 用 1 下 0 和合 57 分 5 种 
Wos: E: \ 盘 觅 ME 六 \sSCi 语 斜 本 dsta 
Timespan: 2005-2017 (Slice Length=1) 
Selection Criteria: Top 50 per slice, LRF=2, LBY=8, e=: sa 
Network: N=57, E=220 (Density=0. 1378) 
Largest CC: 51 ‘(89%) 
Nodes Labeled: 5.0% 
Pruning: Pathfinder 


图 5 国际 语料库 国家 / 地 区 可 视 化 图 谱 
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wiww.kmf.ac.cn 


通过 节点 Citation History 功能 可 以 捕 
获 中 国 这 一 节点 两 个 方面 的 详细 信息 : 一 方 
面 图 6 清晰 展示 了 中 国 2005-2017 的 发 文 频 
次 的 变化 情况 ， 其 中 2005-2017 近 13 年 间 
中 国 在 语料库 领域 的 发 文 整体 趋势 上 升 ; 另 


[4 CheSpace 


The History of ADDoorence | Arvcles Published ed im this 


Country in 282 Records | 
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一 方面 可 以 通过 “Articles Published in This 
Country in 280 Records” 的 记录 ( 即 中 
这 一 时 期 语料库 的 282 篇 施 引 文献 的 具体 信 
息 ) ， 进 一 步 挖掘 中 国学 者 在 语料库 领域 的 
分 布 信息 。 


PEOPLES RCHINA burst=005 | Save Plot to Fle “| Legend Fontsize 24 人 一 


| Rh de 


( 申 ) 理 焙 疼 Qd 


2006 2007 2008 


2009 2010 2011 


2012 2015 2014 2015 2016 2017 | 


年 份 “年 》 


2.5 国际 语料库 研究 机 构 分 析 

由 于 作者 和 机 构 之 间 具 有 从 属 关 系 ， 而 机 
构 在 研究 领域 上 具有 不 同 的 侧重 点 ， 期 刊 的 机 
构 分 布 不 仅 体现 了 该 刊 的 侧重 领域 和 方向 ,还 
体现 了 机 构 对 刊物 的 支持 和 认同 中 。 因 此 ， 对 
研究 机 构 进行 分 析 ， 能 够 了 解 到 某 一 领域 核心 
科研 机 构 的 研究 动态 ， 掌 握 该 领域 的 研究 热点 
及 发 展 趋势 。 因 此 ， 采 用 CiteSpace 软件 ， 将 
时 区 选择 (TimeSlicng) 设 定 为 2005-2017 
年 ， 时 间 分 区 切片 选择 1 年 ; 节点 类 型 (Node 
Type ) 选择 机 构 (institution ) , 修剪 ( Pruning ) 选 
择 寻 径 算 法 ( Pathfinder ) 和 修剪 切片 网 络 ( Pruning 


2Z1o 


图 6 中 国 在 语料库 领域 的 发 文 历史 


sliced network ) 上， 运行 Citespace 软件 ， 生 成 
国际 语料库 人 研究 机 构 的 知识 图 谱 ， 如 图 7 所 示 : 

图 7 中 共有 184 个 节点 ，102 条 连 线 ， 网 
络 密度 为 0.006 1， 这 表明 语料库 研究 仍 处 于 
发 展 阶段 ， 大 的 成 熟 研究 团体 尚未 形成 ， 更 广 
范围 的 机 构 合 作 有 待 形成 。 其 中 比较 成 熟 的 研 
究 团 队 ， 如 比利时 根 特大 学 为 中 心 的 连 线 较 
密 ， 说 明 其 与 比利时 鲁 汶 大 学 和 比利时 安 特 卫 
普 大 学 有 着 较 密切 的 合作 。 为 了 更 清晰 地 了 解 
国际 科研 机 构 对 语料库 领域 的 研究 情况 ,统计 
语料库 研究 机 构 得 到 表 7, 由 表 7 可 以 看 出 , 比 
利 时 根 特大 学 、 比 利 时 和 鲁 汶 大 学 、 英 国 兰 卡其 
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特大 学 、 英 国 爱丁堡 大 学 、 英 国 伯 明 葵 大 学 


国宾 夕 法 尼 亚 州 立 大 学 、 法 国 国家 科学 人 研究 
院 、 西 班 牙 瓦 伦 西亚 大 学 、 比 利 时 安特卫普 大 


学 、 英 国 曼彻斯特 大 学 和 芬兰 ee 
在 语料库 人 研究 领域 排 在 前 11 位 ， 些 学 校 在 
高 等 教育 研究 上 处 于 领先 的 地 位 ， Je 


都 在 30 篇 以 上 ， 比 利 时 根 特 大 学 发 表 123 篇 
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文献 ， 文 献 数 量 排名 第 一 。 从 中 心 度 排序 来 
看 ， 比 利 时 根 特大 学 和 比利时 和 鲁 汶 大 学 的 中 心 
度 最 大 ， 达 到 了 0.12， 这 说 明 这 两 种 机 构 与 其 
他 机 构 合作 广泛 。 从 突现 性 来 看 ， 比 利 时 安 特 
卫 普 大 学 和 西班牙 瓦 伦 西 亚 大 学 突现 性 数值 较 
大 ， 这 说 明 这 两 个 机 构 在 语料库 研究 上 有 较 大 
的 突破 。 


| 2 
ee Vv. SM RE SE 【32-bit 和 
83 分 47 
出 ‘eb i idata 
Timespan: 2005-2017 [Slice Length=1) 
Selection Criteria: Top 20 per slice, LRF=2, LBY=8, e=2.0 
Network: N=184, E: 【 061) 
Largest CC: 68 (369 ER Ean EE 
Nodes Labeled: 5.0% 
Pruning: Pathfinder 
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图 7 国际 语料库 领域 机 构 知识 图 谱 


表 7 Web of Science 收录 语料库 文献 研究 机 构 分 布 


机 构 频次 中 心 度 ”突现 值 

Ghent University ( 比利时 根 特大 学 ) 123 0.12 

Katholieke Universiteit Leuven ( 比利时 鲁 汶 大 学 ) 88 0.12 4.57 
Lancaster University ( 英国 兰 卡 斯 特大 学 ) 55 0 

The University of Edinburgh ( 英国 爱丁堡 大 学 ) 45 0.01 4.17 
University of Birmingham ( 英国 伯明翰 大 学 ) 43 0.05 

Penn State University ( 美国 宾夕法尼亚 州立 大 学 ) 40 0.01 

Centre National de la Recherche cientifique ( 法 国 国 家 科学 研究 院 ) 38 0.07 4.77 
University of Valencia ( 西班牙 瓦 伦 西亚 大 学 ) 34 0 6.82 
University of Antwerp ( 比利时 安特卫普 大 学 ) 33 0.07 7.4 
The University of Manchester ( 英国 曼彻斯特 大 学 ) 32 0.01 

University of Helsinki ( 芬兰 赫尔辛基 大 学 ) 30 0 
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2.6 国际 语料库 被 引文 献 分 析 

某 一 领域 期 刊 论文 被 引用 频次 在 一 定 程 
度 上 说 明 该 领域 的 学 术 人 研究 的 理论 水 平和 发 
展 速 度 。 通 过 分 析 这 些 论文 ,不仅 可 以 直观 
地 了 解 该 研究 领域 在 过 去 和 当前 的 发 展 状 


2005 一 

pp Vv.5.4 E (32-bi 

30 FE12 上 月 16 日 下 和 05 司 ?125gy 

WoS: E:\ 杨 材 \ 论 文 \SSCI 语 侍 不 Wata 

Timespan: 2005-2017 (Slice Length=1) 

Selection Criteria: Top 20 per slice, LRF=2, LBY=8, e=20) 
Network: N202, E=: 381 [Density=0.0188) 

Largest CC: 184 (91% %) 
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况 , 还 可 以 大 概 预测 出 其 未 来 的 发 展 趋势 1。 
利用 CiteSpace 软件 对 文献 数据 进行 可 视 化 
分 析 ， 网 络 节 点 (node types ) 为 被 引文 献 
得 到 共 被 引文 献 图 谱 ， 如 


(cited reference ) ， 


图 8 所 示 : 


Nodes La ee 5.0% 
Pruning: Pathfinder a ' 
Modularity Q=0 ,6675 
Mean Silhouette=0.4469 ° es 
HALLDAWMAK CC 
一 AAA 四 
多 


© Ho 5o05 Me 
® SCOTT M (2008) 同 ~ | 


BIBERIDI(2006) 


WE YY 
a 


BYB 上 2006) 站 


Og GOLDE 了 (2006) = 


[| NBYBEEY (2010) 


从 图 8 可 以 看 出 ， 此 次 分 析 共 生成 了 202 
个 节点 ，381 条 连 线 ， 每 个 节点 代表 一 篇 被 引文 
献 ， 节 点 向 外 延伸 的 不 同 颜色 与 该 文献 所 在 年 份 
的 颜色 相对 应 ， 节 点 越 大 表示 被 引 频 次 越 高 ， 在 


一 定 程 度 上 也 代表 该 领域 的 研究 重点 。 整 理 共 


cror yt (2004) 和 


XT ToMAsEko M (2003) 
"A 


(en 


BIBERDN1999) 村 


SWALESWM (2004) 


.HUDDLESTON RD (2002) 


图 8 被 引文 献 共 被 引 图 谱 


被 引 网 络 图 谱 ， 其 共 被 引 频 次 排名 前 5 和 中 心 
度 大 于 0.18 的 数据 见 表 8 和 表 9， 美 国学 者 A. 
Goldberg 出 版 的 著作 Constructions at Work 无 论 
是 被 引 频 次 还 是 中 心 度 排名 都 在 前 三 ， 这 表明 该 
书籍 在 语料库 研究 领域 具 高 影响 力 。 


表 8 共 被 引 频 次 排名 前 5 的 被 引文 献 


文献 名 


作者 ( 发 表 年 份 ) 


78 Analyzing linguistic data: a practical introduction to statistics using R 


77 Constructions at Work 


teaching and research 


57 Wordsmith tools version 5, Liverpool: Lexical Analysis Software Ltd 


The corpus of contemporary American English--a useful tool for English 


56 The Cambridge grammar of the English laneuage 


R. Baayen ( 2008 ) 
A. Goldberg (2006) 


M. Davies (2008 ) 


M. Scott ( 2008) 
R. D. Huddleston (2002 ) 
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表 9 共 被 中 心 度 大 于 0.18 的 被 引文 献 


频次 文献 名 


作者 ( 发 表 年 份 ) 


0.28 A usage-based exemplar model approach to Spanish verbs of “becoming” 


J. Bybee (2006) 


0.25 Lexical priming: a new theory of words and language M. Hoey (2005) 
0.21 Constructions at work A. Goldberg (2006) 
0.19 Constructing a Language: a usage-based theory of laneuage acquisition M. Tomasello (2003) 
0.18 Language, usage and cognition J. Bybee (2010) 
0.18 An academic formulas list (AFL) R. Simpson-Vlach (2010) 
0.18 Humble servants of the discipline? self-mention in research article K. Hyland (2001) 


在 5 篇 共 被 引 频 次 最 高 的 文献 中 有 4 本 专 
车 都 带 有 工具 书 性 质 ，Analyzing linguistic data: 
a practical introduction to statistics using R 是 面向 
非 数 学 背景 学 者 展示 怎样 用 R 语言 进行 语言 学 


语 料 分 析 ; The corpus of contemporary American 


English--a useful tool for English teaching and 
research 介绍 美国 当代 英语 语料库 ( COCA ) 在 
英语 教学 和 研究 中 的 应 用 ; Wordsmith tools 
version $5, Liverpool: Lexical Analysis Software 
Ltd 介绍 语料库 工具 Wordsmith; The Cambridge 
grammar of the English language 是 基于 描写 语法 
的 英语 辞书 ， 例 句 均 来 自 真 实 语 料 。 这 些 高 频 
次 共 被 引文 献 揭示 出 语料库 语言 学 的 一 个 重要 
特征 ， 即 实践 性 和 工具 性 。 语 料 库 语 言 学 是 理 
论 与 实践 的 结合 ， 尤 其 实践 性 是 其 突出 特点 。 
并 且 语 料 库 工具 和 语料库 本 里 都 在 不 断 更 新 、 升 
级 ，Wordsmith 现在 已 经 更 新 至 7.0 版本, COCA 
已 经 有 了 库容 达到 1.4 亿 的 升级 版 Web。 

在 共 被 引 最 高 频次 和 中 心 度 最 高 的 文献 
中 均 人 选 的 Constructions at work: the nature of 
generalization in Ilanguage(《 运 作 中 的 构 式 : 语 
言 概括 性 的 本 质 》) "" 具有 重要 的 理论 价值 ,是 
构 式 语法 的 打 虚 之 作 。 其 作者 A. Goldberg 提出 
的 “ 构 式 ”概念 引起 了 整个 语言 学 界 的 极 大 关 
注 ， 其 发 展 势头 极为 迅猛 。 某 种 意义 上 ， 构 式 
主义 已 经 形成 独立 的 研究 流派 。 语 料 库 与 构 式 
的 结合 既 出 于 理论 上 的 契合 ， 又 凸显 了 语料库 
的 工具 优势 。 
2.7 国际 语 料 座 研究 前 沿 热 点 

关键 词 是 一 篇 文献 的 核心 与 精髓 ， 


是 对 


主题 的 概括 与 凝练 ， 反映 文献 的 核心 内 容 ， 也 
是 文献 计量 研究 的 重要 指标 ， 当 多 篇 文章 的 关 
键 词 具 有 一 致 性 时 ， 这 些 文章 的 主题 或 多 或 
少 在 一 定 程度 上 具有 相关 性 。 关 键 词 共 现 知 
识 图 谱 能 够 将 具有 相同 关键 词 的 文章 进行 聚 
类 ， 进 而 体现 出 同一 研究 领域 的 关键 节点 ， 集 
中 展现 一 段 时 间 内 相关 文献 的 研究 热点 ， 有 
利于 从 整体 上 把 握 已 有 研究 内 容 。 同 时 ， 通 
过 对 关键 词 共 现 产 生 的 中 心性 分 析 可 以 揭示 
出 研究 热点 之 间 的 转化 关系 ， 因 此 ， 本 文 利 
用 已 收集 的 文献 数据 库 的 关键 词 来 分 析 语 料 
库 的 研究 热点 。 在 CiteSpace 软件 中 ， 将 节点 
类 型 设置 为 “Keyword”， 对 5 096 篇 文献 进 
行 关键 词 共 现 分 析 得 到 关键 词 共 现 的 研究 热 
点 图 谱 , 运行 结果 表明 , 共有 323 个 节点 , 930 
条 连 线 ， 且 密度 为 0.017 9， 如 图 9 所 示 。 
9 中 带 有 紫色 圆圈 的 关键 词 具有 高 中 心性 ， 是 
一 个 研究 热点 向 另 一 个 研究 热点 转化 的 重要 
转折 点 。 

通常 频次 高 的 关键 词 被 用 来 确定 一 个 人 研 
究 领 域 的 热点 ， 表 10 列 出 了 共 现 频次 大 于 
等 于 30 的 关键 词 及 其 序号 、 频 次 、 突 现 值 和 
中 心 度 。 从 表 10 中 可 以 看 出 ,语料库 语言 学 
( corpus linguistics ) 作为 关键 词 共 现 频 次 最 
多 ,有 238 次 , 且 中 心 度 为 0.14, 人 处 于 第 5 位 ,其 
中 西班牙 语 ( Spanish ) 、 话语 分 析 ( discourse 
analysis ) 、 语 料 库 (corpora) 、 词 典 编纂 
( lexicography ) 和 人 句法 (syntax ) 的 突现 值 
均 非 常 高 ， 表 明 这 5 个 关键 词 是 各 自 年 份 的 
热点 。 
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表 10 关键 词 频次 和 中 心 度 
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9 关键 词 分 析 可 视 化 图 谱 


Top 22 Keywords with the Strongest Citation Bursts 


序号 关键 词 频次 突现 值 中 性 度 Keywords Year Strength Begin End 2005 - 2017 
1 corpuslinguistics 238 0.14 rit 
2 corpus be hl 0.09 metadiscourse | 2005 3.9206 2005 2008 四 mmmmm 一 一 一 一 一 一 一 一 一 
3 Spanish 79 314 0.1 ee 
4 grammaticalization 78 0.09 ny SN OO 
5 collocation 71 0.06 0 a 
6 corpus analysis 69 0.08 politeness 2005 9.9279 2008 2010 一 一 一 Eee 一 一 一 一 一 一 一 一 
model 2005 2.9226 2008 2012 一 一 一 mmmmmmmmmm 一 一 一 一 一 
六 frequency 69 0.16 metaphor 2005 2.908 2008 2011 一 一 一 mmmmmmm 一 一 一 一 一 一 
8 English 67 0.17 gender 2005 ”7.9156 2009 2010 一 一 一 一 一 一 一 一 一 一 一 一 一 
comprehension 2005 EE 06292090 ai 
9 metaphor 66 0.06 nis 2005 82168 2010 2011 a 
10 conversation analysis 65 0 Ei 2005 。 7309 2010 2013 一 一 一 一 一 i 
identity 2005 了 NO008 02 2203: cpm EE 
Th discourse marker 62 0.07 i 3 ss 
12 academic writing 58 0.07 word 2005 73909 2012 2013 一 一 一 一 一 一 一 一 一 一 一 一 一 
discourse marker 2005 nn ee em es 
13 genre 57 0.14 collocation 2005 i me 
14 Varation S2 0.05 corpus analysis 2005 106728 01S. 2017 cm i 
15 discourse analysis 50 3;17 0.04 和 车 < ee ee ne 
16 discourse 50 0.08 10 高 突变 关键 词 时 间 线 图 诺 
17 translation 50 0.11 
18 pragmatics 50 0.06 图 10 清晰 地 显示 了 2005-2017 年 人 研 
> se 2 究 热点 关键 词 的 演变 ， 但 也 需要 具体 甄别 
ender 。 6 99 6 
和 冰释 ， 如 单独 看 “model” 和 “corpus 
21 prosody 45 0.07 . 
2 re 39 0 analysis” 没 有 意义 。 整 体 看 语料库 2005-2017 
23 syntax 36 3.51 0.05 年 的 研究 热点 包括 话语 分 析 (conversation 
24 Dutch 35 0.03 analysis、 metadiscourse 、politeness 、discourse 
25 eaton 31 O00 marker ) 、 词 典 编撰 ( lexicography、dictionary ) 、 词 
26 lexicography 3] 9.12 0.05 、 . 、 
5 nn 全 汇 (morphology、word 、collocation ) ， 此 外 还 
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有 音 系 学 (phonology ) 、 句 法 (syntax ) 、 隐 
喻 (metaphor )、 性 别 ( gender )、 身份 (identity )、 文 
类 ( genre ) 。 以 上 分 析 显 示 一 方面 词典 编 扎 和 
词汇 搭配 一 直 都 是 语料库 语言 学 的 重要 课题 ， 另 
一 方面 隐喻 、 性 别 、 身 份 和 文 类 等 关键 词 往 
往 和 话语 分 析 、 文 学 研究 及 专门 用 途 语 言 相 
关 ， 这 表明 语料库 语言 学 的 研究 正在 拓展 到 更 
多 领域 ， 并 更 加 细致 。 延 续 到 2017 年 的 关键 
词 包括 话语 标记 、 搭 配 (collocation ) 和 德语 
( German ) 。 德 语 成 为 一 个 热点 关键 词 可 能 
有 两 个 原因 : 四 有 4 本 德国 出 版 的 期 刊 均 为 
语料库 核心 期 刊 ， 研 究 成 果 发 表 渠 道 较为 丰 
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些 作者 在 国际 语料库 领域 都 做 出 了 卓越 贡献 。 
分 析 作 者 合作 水 平 后 发 现 ， 语 料 库 研究 的 合作 
度 为 0.82， 合 作 率 为 22.36%， 合 作 度 和 合作 率 
都 很 低 。 共 被 引文 献 还 揭示 出 语料库 语言 学 的 
个 突出 特点 是 兼 具 理论 性 与 实践 性 。 高 被 引 
文献 的 作者 往往 也 是 重要 的 语料库 建设 者 及 软 
件 开发 者 。 此 外 ， 语 料 库 的 工具 性 并 不 能 掩盖 
其 理论 价值 ， 对 理性 主义 的 矫正 ， 和 构 式 语法 
的 结合 ， 语 料 库 的 建立 对 语言 习 得 、 翻 译 和 语 
言 本 质 的 认识 均 有 重要 影响 。 

共有 57 个 国家 对 语料库 进行 了 研究 ， 美 
国 、 英 国 、 西 班 牙 、 德 国 、 比 利 时 、 中 国 和 法 


富 ; @ 近 年 来 关于 德语 的 研究 比较 活跃 ， 如 十 / 
中 高 地 德语 的 语料库 建设 和 研究 等 。 


全 结论 


从 文献 发 表 数量 看 ， 语 料 库 语言 学 研究 经 
历 了 快速 发 展 ， 近 年 来 每 年 均 有 大 量 高 质量 成 
果 发 表 。 在 WOS 数据 库 共 收录 期 刊 文献 5 096 
篇 , 年 均 文献 量 为 392 篇 , 分 布 在 251 个 刊物 , 其 
中 核心 期 刊 有 19 种 ， 欧 洲 国 家 出 版 刊物 占 15 
本 ， 美 洲 3 本 ,非洲 1 本 。 这 些 期 刊 文献 反映 
了 近 13 年 的 语料库 语言 学 研究 的 最 高 水 平 ， 可 
重点 关注 。 此 外 ， 和 荷兰 、 英 国 、 德 国 均 拥有 4 
本 及 以 上 核心 期 刊 ,形成 语料库 研究 的 中 心 , 反 
过 来 进一步 促进 了 本 国 研 究 的 发 展 ， 比 如 德语 
是 近 3 年 来 的 持续 热点 。 事 实 上 ， 针 对 印 欧 语 
系 语言 的 研究 的 确 在 语料库 研究 中 占据 主流 , 针 
对 其 他 语言 的 研究 一 方面 极 具 必要 性 ， 男 一 方 
面 在 发 表 渠 道上 不 占 优 势 。 目 前 我 国 北京 外 国 
语 大 学 和 上 海 交 通 大 学 一 北 一 南 形成 语料库 研 
究 的 两 个 核心 ， 在 创建 英文 期 刊 、 进 入 国际 学 
界 方面 大 有 可 为 。 

在 3 755 位 第 一 作者 中 ,，S. T. Gries 、G. M. 
de Schryver、 K. Hyland、G. Parodi 和 D. Biber 
等 拥有 最 高 发 文 量 。 被 引文 献 共 涉及 作者 85 
996 人 ， 其 中 高 被 引 作 者 共 43 人 ，D. Biber、K. 
Hyland、J. Bybee 、M. A. K. Halliday 、 卫 . C， 
Traugott、W. Labov 和 S.T. Gries 位 居 前 列 ， 这 


国 等 是 开展 语料库 研究 的 主要 国家 ， 比 利 时 根 
特大 学 .比利时 鲁 汶 大 学 .英国 兰 卡 斯 特大 学 、 英 


国 爱 丁 集 大 学 、 英 国 们 明 翰 大 学 、 美 国宾 夕 法 
尼 亚 州立 大 学 、 法 国 国家 科学 研究 院 、 西 班 牙 
瓦 伦 西亚 大 学 、 比 利 时 安特卫普 大 学 、 英 国 受 
彻 斯 特大 学 和 芬兰 赫尔辛基 大 学 等 在 语料库 研 
究 领 域 排 在 前 11 位 ， 处 于 领先 的 地 位 。 中 国学 
者 在 进行 访问 交流 时 可 重点 考虑 这 些 学 校 。 

词 频 、 搭 配 、 词 典 编撰 与 语料库 语言 学 具 
有 天 然 的 联系 ， 一 直 是 重要 的 研究 内 容 ， 词 频 
和 搭配 也 是 展开 其 他 研究 的 重要 手段 。 近 些 年 
来 ， 语 料 库 研 究 越 来 越 呈 现 出 跨 学 科 、 多 角度 
的 特点 。 专 门 用 途 语言 、 学 术 英 语 , 不 同文 类 不 
同 语种 均 成 为 研究 对 象 。 性 别 、 吴 份 、 隐 喻 及 
话语 分 析 成 为 新 的 研究 热点 。 基 于 语料库 的 话 
语 分 析 .语料库 文体 学 相继 涌现 , 与 构 式 语法 、 认 
知 语言 学 的 结合 是 研究 前 沿 。 我 国 在 语料库 翻 
译 学 、 学 习 者 语料库 、 汉 语 语料库 建设 方面 成 
果 颇 丰 ， 是 国际 语料库 语言 学 研究 的 一 部 分 。 
对 国际 研究 热点 和 前 沿 的 关注 有 利于 人 们 拓展 
和 深入 现 有 研究， 也 有 利于 与 国际 学 界 进行 更 
有 效 的 对 话 。 
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Information Visualization Analysis on the Research Hot Spots and Frontiers of 
International Corpus Linguistics 


Yang Liu 
School of English Studies, Shanghai International Studies University, Shanghai 200083 

Abstract: [Purpose/significance] This paper aims at grasping the overall context and research findings of 
international corpus research in recent years, clarifying the hot spots and exploring the research frontiers 
in this field. [Method/process] It took the research papers published between 2005 and 2017 in Web of 
Science as data source, and made calculate analysis and knowledge domains map on these data through the 
softwares including BICOMB, Ucinet6 and CiteSpace from the following aspects: publication numbers and 
chronological distribution, source journals, research subjects, national and regional distribution, research 
institutions and cited literature. [Result/conclusion] It found that corpus study presents the characteristics 
of interdisciplinary and multi-angle, and it’s research objects involve more languages and literature genre. 
Collocation and lexicography keep being important studies while special purpose language, academic 
English, gender, identity, metaphor and discourse analysis turn into new research hotspots, and the 
combination with construction grammar and cognitive linguistics are the research frontiers. 
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